数据增强是提高深度学习数据效率的必要条件。对于视觉预训练,仅在以前的作品中为图像或文本增强数据。在本文中,我们介绍了Mixgen:视觉表示的联合数据增强学习,以进一步提高数据效率。它生成了新的图像文本对,并通过插值图像和串联文本保留了语义关系。它很简单,可以插入现有管道中。我们在五个下游视觉语言任务中评估了四个架构,包括夹子,vilt,albef和tcl在内的混合带,以显示其多功能性和有效性。例如,在ALBEF预训练中添加Mixgen会导致下游任务的绝对性能改进:图像文本检索(可可微型调整为+6.2%,Flicker30k零射击),视觉接地(+0.9%)(+0.9%) refcoco+),视觉推理(nlvr $^{2} $的+0.9%),视觉询问答案(vqa2.0上的+0.3%)和视觉效果(snli-ve上的+0.4%)。
translated by 谷歌翻译